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共 词 网 络 LDA 模型 的 中 文 文本 主题 分 析 : 
以 交通 法 学 文献 (2000-2016) 为 例 - 


马 红 ! 蒙 永 明 ? 
1 (山东 交通 学 院 交 通 法 学 院 
(济南 大 学 商学 院 


摘要 : [ 目的 ] 通过 结合 传统 LDA 模型 的 概率 主题 抽 


济南 250357) 
济南 250022) 


取 方 法 和 共 词 网 络 分 析 发 现 文献 词汇 间 的 联系 结构 的 两 者 


优势 ， 降低 由 少量 文献 产生 的 高 频 词汇 的 干扰 ,提高 主题 凝聚 性 。[ 方法 ] 在 交通 法 学 文献 摘要 文本 主题 分 析 中 ， 
加 入 文献 的 关键 词 作 为 分 词 复合 词典 ， 提 高 语义 识别 度 ; 提出 CA-LDA 模型 (Latent Dirichlet Allocation Model 
with Co-word Analysis), 在 传统 LDA 模型 的 基础 上 加 入 共 词 网 络 分 析 , 以 共 词 网 络 拓扑 结构 参数 作为 权重 控制 
词汇 主题 分 配 (采用 介 数 中 心 度 ),， 优 先 提取 同时 具有 高 共 现 性 (中 介 性 ) 和 高 频率 的 词汇 。【 结果 ] CA-LDA 模型 可 
以 得 到 多 篇 文献 同时 共 现 的 高 频 词汇 , 这 样 产 生 的 重点 词汇 表 对 主题 分 析 更 有 意义 。 该 算法 的 结果 不 仅仅 反映 


词 频 概率 , 同时 也 能 从 词汇 关联 上 发 现 枢纽 词汇 , 更 深入 理解 该 领域 的 研究 热点 。 [ 局 限 ] CA-LDA 模型 主题 数 
目的 取 值 采 用 混淆 度 标准 交叉 验证 获得 ， 如 果 在 实际 分 析 中 K 值 太 大 ,不 利于 文献 主题 的 分 类 整理 ,未 来 研究 
需要 对 该 结果 进一步 处 理 来 凝聚 主题 。[ 结论 ] 本文 将 该 模型 应 用 于 交通 法 学 研究 领域 热点 主题 分 析 , 在 处 理 大 
规模 文献 数据 中 取得 较 好 效果 。 相 关 研 究 可 以 拓展 应 用 于 各 种 领域 的 大 规模 文献 数据 自动 化 处 理 中 。 

关键 词 : 共 词 网 络 LDA ”主题 模型 (CA-LDA) 主题 词 共 现 网络 拓 扑 结构 参数 ”随机 梯度 下 降 ”交通 法 学 热 词 
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1 引 Ë 


信息 的 不 断 堆 积 导 致 文本 的 数据 量 日 益 庞大 。 这 
些 文本 远 远 超出 一 个 人 的 正常 阅读 能 力 ， 同 时 ， 越 来 
越 多 的 信息 以 电子 文本 的 形式 存储 ,为 计算 机 分 析 文 
本 提供 了 便利 ,主题 模型 (Topic Modeling) 能 够 发 现 “ 文 
档 - 词 语 ” 之 间 所 蕴含 的 潜在 语义 关系 ( 即 主题 )。 主 题 
由 一 个 核心 事件 或 活动 以 及 所 有 与 之 直接 相关 的 事件 
和 活动 组 成 中 利用 相关 自然 语言 处 理 技 术 ,， 可 以 对 文 
献 内 容 进行 特征 分 析 、 提 取 主 题 概 念 、 追 踪 感 兴趣 的 
主题 , 快速、 准确 获得 领域 热点 知识 和 发 展 趋势 。 主 
题 分 析 技术 已 经 成 为 与 情 分 析 、 科 人 研 选 题 等 方面 的 有 


效 工 具 。 

主题 模型 主要 采用 相似 度 计算 来 判断 新 主题 是 否 
属于 已 知 主题 , 基于 统计 知识 ， 对 文本 进行 信息 过 滤 ， 
然后 利用 分 类 策略 跟踪 相关 主题 ,目前 常用 的 模型 主要 
A: 凝聚 层 次 聚 类 算法 (Hierarchical Clustering Algorithm, 
HCA)P?, 语言 模型 (Language Model, LM), pE 
间 模 型 (Vector Space Model, VSM) 和 概率 主题 模型 
(Probabilistic Topic Models, PTM)。 其 中 , 潜在 狄 利克 雷 
分 配 (Latent Dirichlet Allocation, LDA) 模 型 属于 概率 主 
题 模 型 ， 被 公认 为 是 最 成 功 的 主题 模型 。 对 LDA 模型 
的 改进 主要 有 快速 折 芋 吉 布 斯 采样 LDA 模型 W 、 分 布 
式 学 习 LDA 模型 打破 原 有 可 交换 的 假设 的 关联 
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LDA EU 以 及 非 参数 贝 叶 斯 HDP 模型 (Hierarchical 
Dirichlet Processes) ^ ?! , 这 些 改进 极 大 地 提高 了 主题 分 
析 效 率 , 丰富 了 LDA 方法 的 应 用 范围 。 

LDA 模型 可 以 从 文本 中 抽取 主题 , 但 没有 考虑 多 
个 文本 中 词汇 共 现 现象 。 很 显然 , 词汇 在 多 篇 文献 中 
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此 , 本 文 结合 两 者 的 优势 ， 提 出 一 种 共 词 网 络 
LDA 主题 模型 (CA-LDA), 在 传统 LDA 模型 中 加 入 共 
词 网 络 特征 参数 ,调节 主题 生成 过 程 。 同 时 , 为 了 解决 
新 参数 带 来 的 计算 复杂 度 ， 引 入 随机 梯度 下 降 
(Stochastic Gradient Descent, SGD) 优 化 提高 了 算法 执 


共同 出 现 , 形成 的 共 词 网 络 对 于 主题 凝聚 具有 指导 意 
义 。 共 词 网 络 分 析 (Co-word Analysis) 是 由 Callon 等 提 
出 的 另 一 种 主题 分 析 技 术 ， 主 要 分 析 词 汇 的 共 现 频率 ， 
通过 共 词 矩阵 将 距离 较 近 的 主题 词 聚集 成 复 ， 族 聚 文 
RR ERU. ln: Callon 等 分 析 了 高 分 子 化 学 的 主题 共 现 
FEL, Coulter 等 研究 软件 工程 主题 共 现 情况 、 张 
晓 冬 等 研究 计算 机 集成 制造 主题 共 现 情况 ' "等 等 。 
共 词 网 络 分 析 是 一 种 基于 已 有 主题 词 的 频率 及 共 现 的 
文献 关联 分 析 , 并 不 能 产生 主题 。 


话题 1 (Topicl) 
话题 2 (Topic2) 
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Wis 


(a) LDA 学 习 的 物理 模型 


En 


行 效率 , 在 处 理 大 规模 文本 中 取得 较 好 效果 。 
2 潜在 狄 利克 雷 分 配 模型 


潜在 狄 利克 雷 分 配 模 型 (Latent Dirichlet Allocation, 
LDA) 是 由 Blei 等 在 2003 年 提出 的 一 种 概率 主题 的 语 
言 模型 ,该 模型 认为 任何 文本 都 可 以 表示 成 若干 潜 
在 主题 的 混合 Dirichlet 分 布 , 并 可 以 用 词 频 分 布 来 刻 
画 主 题 ， 以 主题 混合 权重 视 为 K 维 参数 的 隐 含 随机 变 
E, 其 生成 主题 的 过 程 如 图 1 Eros. 


(b) LDA 学 习 的 概率 图 模型 


图 1 LDA 学习 模 型 


LDA 的 参数 估计 主要 有 贝 叶 斯 变 分 推断 
(Bayesian Variational Inference,VBDP0 和 Hoffman 等 
提出 的 具有 代表 性 的 随机 变 分 方法 (Stochastic 
Variational Inference, SVI)? "两 种 方法 ,传统 LDA 算法 
中 吉 布 斯 采样 过 程 耗 时 严重 ， 有 时 会 产生 随机 梯度 噪 
音 , 影响 收敛 速度 。 传 统 LDA 模型 算法 过 程 如 下 : 

(1) 从 参数 为 a 的 Dirichlet 分 布 第 一 取样 获得 文 
档 主 题 内 容 向 量 9, 确定 每 个 主题 被 选择 的 概率 ; 

2) 从 主题 内 容 向 量 9 中 选择 一 个 主题 z; 

(3) 基于 一 个 主题 z 的 单词 概率 分 布 ， 生 成 单个 
词汇 。 

重复 此 过 程 ,遍历 文档 所 有 词汇 直到 生成 所 有 
文档 的 主题 。 


现代 图 书 情报 技术 


主题 模型 包含 语料库 D = {W W, Wu}, 30 
d 中 的 词汇 集合 W = {wi,w;,…,ww} ,所 有 词汇 属于 
KER. zy 代表 d 篇 文档 的 第 j 个 单词 被 划分 给 主 
题 z; LDA 的 联合 概率 密度 函数 中! 为 : 


N 
P(6,Z, W |a. p) = P(6| a)[ [PG |DPCw, 1z,.B) (D 


参数 a 代表 文本 集 上 主题 的 Dirichlet 分 布 的 先 验 ， 
描述 了 文本 集中 潜在 隐 含 主题 间 的 相对 强 弱 ; p 是 一 
个 KxV WIERE, Ba 表示 第 i 个 主题 条 件 下 生成 第 j 个 
单词 的 概率 ,描述 了 第 j 个 特征 词 归属 于 第 i 个 隐 含 
主题 的 概率 。 04 表示 文本 d 在 T 个 主题 上 的 多 项 分 布 ， 
0 是 一 个 文档 级 别 的 主题 向 量 , 每 个 值 对 应 主题 z 在 文 


档 中 出 现 的 概率 , z 和 w 都 是 单词 级 别 的 变量 , z 由 0 
生成 , w 由 z 和 $B 共同 生成 , 所 有 单词 w 分 别 属于 K 
个 主题 z。 

每 一 篇 文档 的 潜在 主题 分 布 6 都 服从 Dirichlet 分 
fi, 参数 ok > 0 的 情况 下 (公式 (2)) 全 部 文档 集 的 词 
频 概 率 l… 为 公式 (3)。 


N 
P(dlo,B)= [ Pv6] aX[ [X PE |) PCw, | z,.))d0 Q) 


n=l ^» 
M Na 
P(D |a, B) - OEC (aX [> Plan 19)PGvas |zan,P))d6u (3) 
d-l n=] Žan 


其 中 , Na 代表 文档 d 的 词汇 的 总 数 , 对 文档 中 的 
每 一 个 词 w, (1 n & N), 生成 一 个 主题 z, 服从 参数 
为 9 的 多 项 式 分 布 。 


3 CA-LDA 主题 模型 


3.1 文本 集 共 词 网 络 构建 

共 词 网 络 是 由 文本 的 主题 词 在 多 篇 文章 或 多 个 段落 
共同 出 现 (Co-exib 关 系 构成 的 一 类 特殊 的 科学 知识 网 
络 。 本 文 研究 的 摘要 文本 分 析 中 , 共 词 网 络 为 不 同文 章 
摘要 中 的 词汇 共 现 。 定 义 共 词 网 络 网 G(Vertex, Edge) , 
其 中 Vertex 代表 词汇 网 络 节点 集合 , 也 即 文本 集 D 上 
的 全 部 词汇 集 Vertex = (wi, w5, Wy, }; Edge 为 词 
汇 共 现 网 络 连接 的 边 ，Edge= (ej |3(w;i, wj), wi, 
wj eVertex}， 也 即 词汇 wi,wj 在 某 一 文本 (或 段落 ) 内 
共 现 。 这 样 的 网 络 为 无 向 网 络 ， 其 邻接 矩阵 


1  3(w;,w;),Ww;,w; € Vertex M 
gl Tu ,为 NxN 大 规模 
0 其 他 
Wisi AB E 


复杂 网 络 的 拓扑 结构 特征 参数 包括 : 节点 连通 度 
指标 (如 : 度 Degree); 中 心 度 指标 (如 : 点 度 中 心 度 
Degree Centrality, 介 数 中 心 度 Betweenness Centrality , 
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立 共 词 网 络 , 提高 主题 分 析 的 凝聚 性 (也 可 以 采用 点 度 
中 心 度 或 接近 中 心 度 作为 调节 变量 ,其 实验 结果 与 介 
数 中 心 度 调节 变量 的 效果 基本 一 致 )。 

介 数 中 心 度 , 简称 中 介 度 , 源 于 社会 网 络 分 析 中 个 
体 的 重要 性 ,一 个 节点 的 介 数 中 心 度 表 示 所 有 的 节点 对 
之 间 通 过 该 节点 的 最 短路 径 条 数 。 介 数 中 心 度 在 共 词 网 
络 中 很 好 地 描述 了 词汇 之 间 的 联系 的 中 介 关 系 ， 以 这 
个 词汇 为 中 心 的 主题 归 类 , 可 以 提高 主题 内 部 凝聚 性 。 
如 果 记 图 中 任意 两 个 词汇 wi,w; 之 间 的 最 短路 径 条 数 
为 ci， 而 这 些 最 短路 径 中 经 过 节点 1 的 条 数 为 ou(w;) , 
那么 节点 wbwj 间 经 过 节点 ! 的 最 短路 径 条 数 占 


wi,wj 间 总 的 最 短路 径 条 数 的 比例 为 900 ， 根 据 忆 
ij 


速 介 数 中 心 度 算法 (Faster Algorithm for Betweenness 
Centrality) P?! 45 £5 7 的 介 数 中 心 度 定义 为 : 
BCW)= Y Y E0 4) 


wieV w;zw;eV Oi 
传统 LDA 模型 给 菜 个 文档 先 选择 一 个 主题 z, 再 
根据 该 主题 生成 文档 , 该 文档 中 的 所 有 词 都 来 自 一 个 
主题 。 主 题 z1,z,,…zk ,生成 文档 W 的 概率 为: 


N N 
P(W) - P(z)[ [Piw [2) PG] [pwa [zi (5) 


n-l n-l 
CA-LDA 算法 的 核心 是 在 判断 词汇 归 类 时 候 , 考 
虑 词汇 在 共 词 网 络 中 的 介 数 中 心 度 。 在 复杂 网 络 理论 
m, 一 个 节点 的 介 数 中 心 度 越 大 , 该 节点 在 整个 网 络 
中 就 越 重要 请]。 同 理 ,， 词汇 共 现 网 络 G(Vertex, Edge) 
的 节点 词汇 的 介 数 中 心 度 越 大, 在 主题 划分 中 该 词汇 
也 越 重 要 。 基 于 这 个 思想 , CA-LDA 模型 给 生成 词汇 的 


N 
概率 增加 一 个 权重 BC(w1)/ 》 BC(wi) 以 控制 词汇 归 


n-l 


类 , 将 传统 LDA 算法 生成 文档 的 概率 公式 (5) 修 改 为 
公式 (6)。 这 样 , 介 数 中 心 度 大 的 词汇 倾向 于 划分 在 不 


接近 中 心 度 Closeness Centrality); 节点 间 紧 密度 指标 
(如 : $E ZZ Clustering Coefficient, 派系 Cliques, 社区 
Community) 等 。 这 些 参数 也 表明 了 一 个 词汇 在 共 词 网 
络 中 的 重要 程度 、 以 及 与 其 他 词汇 关系 的 密切 程度 ， 
可 以 作为 主题 生成 时 计算 词汇 重要 性 的 参考 依据 。 本 
文 提出 的 CA-LDA 主题 模型 使 用 介 数 中 心 度 作 为 词汇 
归 类 的 调节 变量 , 修正 LDA 模型 词汇 生成 概率 , 并 建 


同 的 词 袋 中 ， 而 与 该 节点 词汇 关联 的 词汇 倾向 于 划分 
到 这 个 主题 下 。 
N 
P(w)- PEU Pe [POws z) + 
> BC(wj) E 
ut " (6) 
-BCO pp C [P(w, z) 
Y BCCwK) fal 


n=l 


+ 
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3.2 ”随机 梯度 下 降 优化 具体 执行 过 程 可 以 用 伪 代 码 表示 : 

根据 吉 布 斯 采样 算法 对 于 后 验 估 计 Initialize éd, =1 forall iandn 
Pop = PCB)P(OP(B) ， 如 果 给 定 先 验 初始 w Piae v mese forall i 

| | P(a, B|w)da.dp repeat 

FUB 相互 独立 ,主题 分 布 P(w|o,B) 可 计算 出 来 , 通过 T UE 
迭代 求 出 使 该 式 达到 最 大 的 xc 和 B 。 如 果 增 加 考虑 词 update {wai Zahi in Use kj CQ) 
向 量 之 间 的 关联 , 极 大 地 增加 了 算法 的 复杂 性 。 TEE 

为 了 解决 这 个 问题 ,根据 随机 梯度 下 降 算法 , 笔 — E 
者 改进 传统 吉 布 斯 采样 的 样本 分 割 与 抽样 过 程 ， 从 而 
降低 迭代 次 数 。 设 计 一 个 随机 梯度 函数 ， TE ik normalize $i tosumtol 


CA-LDA 模型 的 参数 : 主题 词汇 表 (nier ua 记录 词 
汇 v 分 配给 主题 k 的 频数 , 词汇 表 长 度 为 V， 主 题 数 
HK 。 这 样 , 在 每 一 个 吉 布 斯 采样 点 上 ， 以 梯度 下 降 
的 方向 可 以 最 快 地 获得 模型 参数 a 和 B 。 借 助 吉 布 斯 


y! =a; + > qo 
until —*u 
传统 LDA 词 汇 表 来 源 于 概率 分 布 , 也 就 是 较 高 出 
现 频率 的 词汇 作为 重点 词汇 优先 提取 , 而 CA-LDA 模 
采样 算法 中 的 Gamma 函数 Yi = ui + > mi EF, 其中， ”型 根据 共 词 网 络 拓 扑 结构 参数 (本 文采 用 中 介 中 心 度 ) 


k , 调整 获得 的 结果 是 同时 具有 较 高 的 共 现 性 (中 介 性 ) 

bi oc Bi expC ED- Y y, 。 文 档 主题 分 布 的 先 验 和 频率 的 词汇 优先 提取 。 这 种 调整 可 以 降低 由 少量 文 

$i - 献 产 生 高 频 词 汇 的 干扰 , 得 到 多 篇 文献 同时 共 现 的 

参数 即 可 利用 梯度 下 降 法 求解 Ee SU lei ee M 
E - OH) - (0) Y 9) Qoa) O) 意义 。 


针对 每 一 篇 文档 的 初始 y 和 参数 , 迭代 更 新 主 。 4 CALDA 主题 模型 交通 法 学 中 文 文献 


热点 
题词 汇 表 (n, jgY，，， 直 至 收敛 即 可 求 出 所 有 主题 热点 分 析 
以 及 最 终生 成 词语 wi o 4.1 原始 数据 获取 与 描述 性 统计 分 析 


33 CA-LDA 主题 模型 算法 实现 TE 2016 ^F. 7 H 23 日 检索 中 国 知 网 的 中 国学 术 期 
CA-LDA 算法 以 及 随机 梯度 下 降 优化 的 迭代 过 。 刊 网 络 出 版 总 库 , 检索 式 :“ 条 件 : 发 表 时 间 between 
EL UE 2 所 示 。 (2006-01-01, 2016-06-30 and 主题 = 交通 and 主题 = 法 
律 or 主题 = 法 规 ) (精确 匹配 ,检索 获得 6 230 RX 
B ran-in: ML ica 献 记 录 ， 根据 发表 年 份 ”、 “学 科 ” “机构” 和 "基金 "这 
: 4 项 做 描述 性 统计 分 析 ， 如 图 3 所 示 。 
| 由 图 3 中 可 以 看 出 : 交通 法 学 领域 研究 文献 呈现 
快速 增长 趋势 , 但 最 近 两 年 略 有 下 降 ; 行政 法 及 地 方 
法 制 、 公 路 与 水 路 和 运输、 刑法、 交通 运输 经 济 领域 的 
相关 文献 比较 集中 ; 吉林 大 学 、 西 南 政法 大 学 、 长 安 
ST | Wa ala 大 学 、 华 东 政 法 大 学 、 中 国政 法 大 学 为 主要 研究 机 构 ; 
国家 自然 科学 基金 、 国 家 社会 科学 基金 、 国 家 科技 支 


撑 计 划 、 国 家 高 技术 研究 发 展 计划 (863 计划 ) 为 主要 资 


图 2 随机 梯度 下 降 主 题 模型 SGD-LDA 运行 过 程 助 来 源 。 
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(c) 主要 研究 机 构 


图 3 交通 法 学 研究 文献 的 描述 性 统计 分 析 


4.0. 语料库 的 生成 与 信息 转化 

将 交通 法 学 6 230 篇 中 文 文献 的 摘要 字段 提取 出 
来 , 经 过 文本 整理 和 分 词 获 得 各 文档 的 词汇 。 采 用 停 
用 词 字 典 的 方法 去 除 文 本 中 部 分 代词 和 语气 助词 等 。 
但 如 果 仅 仅 做 简单 分 词 , 得 出 的 高 频 词汇 前 10 位 的 
是 : “机制 “规范 ”、“ 建 设 "、“ 问 题 "、“ 发 展 "、“ 管 理 ”、 
“研究 ">、“ 影 响 ”、“ 社 会 “>、“ 道 路 ”， 这些 词 汇 的 内 涵 不 
是 十 分 明确 ,对 分 析 文 本 主题 实际 意义 并 不 大 。 

为 此 ,可 以 采用 增加 复合 词 的 方法 提高 语义 识别 
HE, 提取 6230 篇 文献 的 关键 词 字段 ， 去 重 后 获得 
11 565 条 词汇 作为 复合 词 词典 ， 并 将 所 有 复合 词 分 词 ， 
一 并 存储 。 比 对 每 一 篇 摘要 是 否 包含 该 复合 词 拆 分 的 


Wii 
公路 与 水 路 运输 1360 
行政 法 及 地 方法 制 1793 
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(d) 主要 基金 资助 


发 表 在 《政治 与 法 律 》2016 年 第 6 期 的 文章 《 论 道路 


交通 事故 责任 认定 中 几 对 关系 的 区 分 》 的 文本 预 处 理 


过 程 为 例 简单 分 词 获 得 189 个 词汇 。 


0 10 20 30 40 50 60 70 


ua Unda 


停 用 词 、 增 加 复合 词 并 删除 复合 词 包含 词汇 ,获得 8 
MMC. Jee MERES ELERI. "BA 
责任 法 "“ 治 安 管 理 "、“ 刑 事 责任 "、“ 交 通 事故 "、“ 交 


T 


通 法 律 ”7 个 词汇 为 新 增 复合 词 。 实 际 上 , 作者 为 这 篇 


文章 提供 的 关键 词 是 :“ 交 通 事故 ”" “与 交通 有 关 的 事 
BIS m 作为 交通 违章 ”、“ 责 任 推定 ”4 OH, P 


分 析 这 篇 文献 新 增 复合 词 可 以 发 现 : 新 增 复 合 词 


有 本 文 关 键 词 ， 如 “责任 推定 ”， 该 词 在 其 他 文献 关键 


所 有 分 词 ， 如 果 包 含 则 去 除 这 些 分 词 , 增加 该 复合 词 。 
结果 与 “关键 词 ”+ 摘 要 ”的 结果 不 是 一 一 对 应 。 这 样 分 
析 的 结果 可 以 做 到 依赖 摘要 的 文本 分 析 而 不 是 作者 提 
供 的 关键 词 。 

如 图 4 所 示 , 以 任意 一 篇 文献 : 中 南大 学 王 飞 路 


词 中 没有 出 现 过 ; 也 有 与 本 文 关键 词 高 度 相似 的 复合 


词 ， 如 < 道路 交通 事故 "与 本 文 关键 词 < 交通 于 


W. “H 


pn 


交通 有 关 的 事故 ”高度 相似 ) 来 源 于 2014 年 北京 工业 大 


学 孙 玉 荣 发 表 在 《法 学 杂志 》2014 年 第 


区 3 期 《道路 交 


通 事故 损害 赔偿 特殊 责任 主体 研究 》， 


以 及 湖北 警官 


XIANDAI TUSHU QINGBAO JISHU 
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论 道 路 交通 事故 责任 认定 中 几 对 关系 的 区 分 
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摘要 :我 国 相关 法 律 制度 中 对 交通 事故 和 与 交通 有 关 的 事故 、 交 通 违 章 中 的 作为 和 不 作为 、 页 
AED, A 


路 交通 事故 中 的 责任 认定 存在 诸多 问题 。 
站 引起 "等 三 个 国 素来 限定 交通 事故 ,存在 


致 与 交通 有 关 的 案件 处 理 错误 | 


jJ 
识 不 


责任 推定 
文章 编号 :1005-9512 (2016 06-0138-07 
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(a) 文献 摘要 原文 


学 院 邵 祖 峰 发 表 在 4 中国 司 法 鉴定 32012 年 第 3 期 《 论 
道路 交通 事故 鉴定 的 现状 、 问 题 与 对 策 》 等 367 篇 文 
献 的 关键 词 ; 还 有 本 文 关 键 词 没有 涉及 , 但 摘要 中 出 
现 的 复合 词 ， 如 “侵权 责任 法 ”， 则 是 来 源 于 驻马店 市 
委 党 校 李 志 浩 发 表 在 《广东 教育 学 院 学 报 》2010 年 第 
6 期 《道路 交通 事故 责任 主体 研究 一 一 兼 评 < 侵权 责任 
法 > 相关 规定 》 等 24 篇 文献 的 关键 词 。 这 些 复合 词 的 
加 入 与 原文 摘要 内 容 高 度 一 致 , 语义 更 加 明确 。 
4.3 CA-LDA 主题 模型 的 交通 法 学 热点 词汇 分 析 
利用 CA-LDA 模型 针对 每 一 篇 文章 的 摘要 做 主题 
分 析 。 其 中 可 变量 包括 超 参数 w， 中 以 及 主题 数目 区 。 
a 根据 主题 数目 的 变化 而 变化 , 由 一 般 经 验 值 可 取 


aŠ, G 的 初始 值 选 国 = 一 K 的 确定 大 多 采用 设 


置 不 同 的 值 , 训练 后 交叉 验证 (Cross Validation) 比 较 求 得 
最 佳 值 ， 其 标准 一 般 是 采用 混淆 度 (Perplexity) "5, Hrt 
算 方 法 如 公式 (8) 所 示 , 其 中 ，N 为 文本 d 的 长 度 ( 词 
汇总 数 ); pida) 是 待 测试 模型 产生 文档 du 的 概率 。 混 
MERI, 则 模型 的 泛 化 能 力 越 强 。 


M 
Perplexity(D) = exp oen B 
d=1 d 


根据 混淆 度 计算 公式 , 在 文本 集 D 上 进行 10 组 实 
验 , 获得 不 同 K 值 下 的 混淆 度数 值 如 图 5 所 示 , 其 中 K 
值 在 50 的 时 候 模 型 混淆 度 取得 最 小 值 。 

利用 CA-LDA 模型 ,根据 共 词 网 络 拓扑 结构 参数 
(本 文采 用 中 介 中 心 度 ) 调 整 生成 主题 概率 的 权重 , ^E 
成 50 个 主题 。 提 取 各 个 主题 中 的 前 20 位 词汇 1 000 
个 , 生成 共 词 网 络 和 矩阵 (1000x1000) 稀 跑 和 矩阵 (Sparsity= 
98.1690), 权重 系数 采用 TF-IDF(Term Frequency-Inverse 
Document Frequency)n "去掉 稀 玖 矩阵 中 低频 率 的 词 
(Sparsity=90%), 获得 533 个 词汇 作为 领域 热点 主题 词 


现代 图 书 情报 技术 


(b) 简单 分 词 结果 
图 4 语料库 的 生成 中 增加 复合 词 处 理 范 例 


"责任 推定 ” UURCDGE Mix e ik" 
"刑事 责任 ” "道路 交通 " 
(c) 预 处 理 后 的 结 
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图 5 不 同 主题 数值 情况 下 的 混淆 度 

汇 。 被 去 除 词汇 有 “安保 公司 ”"、“ 深 水 航道 "等 467 个 
词汇 , 这 些 词汇 的 最 高 词 频 为 7， 而 剩余 词汇 词 频 平 
均值 为 64, 词 频 最 高 的 “交通 安全 ”达到 353。 这 种 稀 
玖 和 矩阵 降 维 处 理 极 大 减少 了 计算 量 , 在 大 规模 文本 处 
理 时 信息 损失 较 小 。 

将 CA-LDA 模型 获得 的 533 个 高 频 主 题词 汇 建立 
共 词 网 络 ,， 共 词 网 络 主题 个 数 降 至 28 个， 如 图 6 所 示 。 

这 些 热点 词汇 基本 涵盖 2006 年 到 2016 年 交通 法 
学 研究 热点 。 如 果 将 这 些 词 汇 按 照 出 现 文献 所 对 应 的 
年 份 排序 ， 可 以 发 现 热点 领域 演变 。 
4.4 CA-LDA 模型 方法 与 传统 LDA 模型 主题 分 析 
结果 比较 

在 同一 数据 集 上 (交通 法 学 6 230 篇 中 文 文献 的 摘 
要 文本 ), 分 别 采用 CA-LDA 模型 方法 与 传统 LDA 模 
型 主题 做 分 析 实 验 , 结果 如 表 1 所 示 。 由 于 CA-LDA 
和 传统 LDA 模型 都 采用 LDA 词 袋 模式 , 得 到 的 词汇 
表 相 同 , 但 词汇 重要 性 排序 差异 较 大 。 其 中 CA-LDA 
模型 获得 的 高 频 共 现 词 汇 * 中 国学 术 期 刊 "与 交通 法 学 
研究 主题 无 关 , 主要 原因 是 网 络 数据 中 非 主 题 内 容 词 
汇 的 混入 。 

两 种 模型 前 50 位 高 频 词 汇 基 本 都 是 以 “交通 运 
输 ”"、“ 交 通 管理 *"、“ 交 通 事故 ”为 主 , 核心 内 容 一 致 。 
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(a) 交通 法 学 研究 高 频 词汇 (533 词 ) 共 词 网 络 


ChinaXiv 合 作 期 刊 


总 第 277 期 20164 第 12 期 


(b) 交通 法 学 研究 领域 高 频 词汇 主题 (28 个 ) 划 分 


图 6 交通 法 学 研究 高 频 词汇 网 络 


表 1 传统 LDA 模型 与 CA-LDA 模型 高 频 词汇 前 50 个 词汇 对 比 


模型 高 频 50 词 ( 词 频 降序 ) 


[1]“ 交 通 安全 ”[2]“ 交 通 管 理 ” [3] “交通 运输 ”[4]“ 交 通 事故 ” [5]“ 交 通 後 事 ” [6] “道路 交通 事故 ” [7]“ 交 通 後 事 罪 ” [8]“ 交 
通 参 与 者 ”[9] “城市 轨道 交通 ”[10] “交通 警察 ” [11] “政策 法 规 ”[12] “道路 交通 ”[13] “ 酒 后 驾驶 ”[14] “城市 交通 ”[15] “ 公 


共 交 通 ”[16] “交通 运输 行业 ”[17] “强制 保险 ” [18] “节能 减 排 ”[19] “道路 运输 ”[20]“ 交 通 安 全 知识 ”[21]“ 交 强 险 ”[22] 
传统 LDA“ 道 路 交通 管理 ” [23] “水 上 交通 ”[24] “交通 事故 认定 ”[25] “危险 驾驶 ”[26] “法 规 司 司 长 ”[27] «3:38 SR EX" [28] “ 何 建 


模型 ”中 ”[29] “交通 安全 管理 ”[30]“ 归 责 原 则 ”[31] “法 律 责任 ”[32] “政策 法 规 司 ”[33]“ 交 通 事故 责任 ”[34] “赔偿 责任 ”[35] 
“责任 认定 ”[36] “侵权 责任 法 ”[37] “安全 行车 ” [38] “司法 解释 ”[39] “逃逸 行为 [40]“ 人 民 和 群众 ”[41] “驾驶 经 验 ”[42] Hf 
动 自行 车 ”[43] “法 律 适用 ”[44] “运输 主管 部 门 ”[45] “损害 赔偿 ”[46] “交通 环境 ”[47] “责任 保险 ” [48] “公路 交通 ”[49] 


“新 闻 发 言 人 ”[50]“ 交 通信 号 ” 


[1] “交通 安全 ” [2 


“交通 管理 ” [3] “交通 肇事 ”[4] “赔偿 责任 ”[5] “侵权 责任 法 ”[6] “ 归 责 原则 ”[7] "交通 事故 ”[8] “道路 交 


通 ”[9]“ 酒 后 驾驶 ”[10] “道路 运输 ” [11] “强制 保险 ” [12] “《 道 路 交通 安全 法 》”[13] "52638 A666" [14] “汽车 社会 ” [15] 


"Wee UE" [16] “宣传 教育 ”[17]“ 中 国学 术 期 刊 ”[18] “道路 交通 管理 ”[19]“ 限 额 范围 ”[20] “逃逸 行为 ”[21] “结果 加 重 
CA-LDA 犯 [22] “人 身 损 害 赔 途 ”[23] “交通 运输 ”[24] “机 动车 安全 ”[25] “交通 事故 认定 书 ”[26]“ 何 建 中 ”[27] “交通 信号 ”[28] 
模型 ” “电子 警察 ”[29] “机 动车 ”[30] “责任 认定 ”[31] "交通 事故 责任 " [32]“ 低 碳 经济 ” [33] “交通 参 与 者 ” [34] 《解释 》”[35]“ 政 


策 法 规 ”[36] "政策 法 规 司 ”[37] “交强险 ”[38] 323885 
“交通 安全 教育 ” 
^E" [49] 法律 适用 ”[50] “责任 保险 ” 


43] “损害 赔偿 ”[44] “公路 交通 ”[45] * 


ETJE” [39] "a3 SET" [40] “交通 安全 知识 ”[41] “ 甩 挂 运输 ”[42] 
“节能 减 排 ”[46] “公交 优先 ”[47]“ 自 由 裁量 权 ”[48] “交通 事故 认 


比较 两 种 算法 结果 获得 的 前 50 位 高 频 词 差异 : 

(D 两 者 有 18 个 词汇 不 同 ( 见 表 1 中 带 有 底 纹 词汇 ); 

Q) 各 词 的 词 频 顺序 有 较 大 差异 ; 

(3) 传统 LDA 模型 生成 的 主题 重点 词汇 意义 较为 
单一 (如 “城市 轨道 交通 ”、“ 城 市 交通 ”、“ 公 共 交 通 ”、 
“法 律 责任 ”"、“ 司 法 解释 ”等 ) CA-LDA 模型 结果 重点 
词汇 中 出 现 了 “汽车 社会 “>、“ 低 矶 经 济 ”"、“ 蓝 色 经 济 ” 
等 研究 背景 词汇 ;“《 道 路 交通 安全 法 》”、“《 解 释 》” 
等 法 律 法 规 ; 以 及 “限额 范围 "、“ 自 由 裁量 权 ”、“ 结 果 


MEJL, “交通 事故 认定 书 "、“ 人 身 损害 赔偿 ”等 争议 
研究 热点 内 容 ;“ 电 子 警 察 ”" “交通 安全 教育 “公交 
优先 ”等 管理 方法 。 

总 之 , CA-LDA 模型 获得 的 研究 辅助 信息 比 传统 
LDA 模型 结果 要 丰富 ,而 且 确 实 为 热点 研究 内 容 。 

为 了 显示 清晰 ， 仅 对 两 个 模型 前 50 位 的 高 频 词汇 
生成 词汇 网 络 , 并 以 节点 大 小 代表 词 频 (或 权重 修正 后 
词 频 ), 结果 如 图 7 所 示 。 

从 图 7 对 比 可 以 看 出 ,两 个 模型 结果 差异 较 大 。 
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(b) 基于 CA-LDA 模 型 高 频 主 题词 汇 网 络 


图 7 CA-LDA 模型 与 传统 LDA 高 频 主题 词 江 分布 对 比 


传统 LDA 模 型 中 孤立 的 高 频 词汇 较 多 , 说 明 这 些 词 汇 


型 主题 生成 的 影响 ; BEES, 分 词 是 文本 分 析 的 重要 基 


由 少量 文献 产生 ,而 热点 应 该 是 多 篇 文献 共同 研究 内 
容 ; 传统 LDA 模型 生成 词 频 差异 较 大 , 分布 不 均匀 ， 
可 能 把 绝对 频率 较 低 而 相对 频率 高 的 词汇 作为 重点 。 
而 CA-LDA 模型 的 词 频 差异 较 小 , 关联 更 强 , 词汇 扎 
堆 明显 ,主题 集聚 优势 明显 。 


5 结 语 


本 文 提出 一 个 共 词 网 络 分 析 的 CA-LDA TUS, 1 
模型 以 网 络 拓扑 结构 参数 作为 主题 归 类 的 调节 变量 ， 
控制 词汇 主题 分 配 , 并 使 用 随机 梯度 下 降 技术 提高 算 
法 执行 效率 。 共 词 网 络 拓扑 结构 参数 从 词 向 量 关 联 角 
度 修改 词汇 分 配 ， 其 结果 不 仅 反映 词 频 概率 ,同时 ， 
词汇 网 络 的 节点 介 数 中 心 度 也 能 提供 信息 ， 从 词汇 关 
联 上 发 现 枢纽 词汇 , 在 纵向 上 反映 领域 研究 演进 的 关 
键 技 术 , 在 横向 上 提供 解决 不 同 问题 的 同一 有 效 手 
段 。 该 模型 应 用 在 交通 法 学 研究 领域 热点 主题 分 析 ， 
在 处 理 大 规模 文献 数据 中 取得 了 较 好 效果 。 相 关 研 究 
可 以 拓展 应 用 于 各 种 领域 的 大 规模 文献 数据 自动 化 处 
理 中 。 

CA-LDA 模型 以 节点 中 心 度 指标 调节 LDA 主题 
生成 ,其 他 复杂 网 络 拓扑 结构 参数 (如 节点 间 紧 密度 的 
簇 系数 、 派 系 、 社 区 ) 也 在 不 同 角 度 反 映 共 词 网 络 的 词 
汇 社交 网 络 关系 ,可 以 进一步 研究 这 些 参数 对 LDA 模 
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础 ， 但 是 所 得 结果 往往 都 是 单独 词汇 ,存在 此 义 等 特 
殊 性 , 不 利于 文本 语义 分 析 。 本 文采 用 增加 合成 词 的 
方法 来 提高 语义 识别 度 ， 这些 词汇 来 自 于 文献 关键 词 ， 
这 种 方法 不 适用 于 其 他 文本 处 理 ( 如 网 络 购物 评价 等 )， 
可 以 建立 一 个 领域 内 的 专业 词汇 表 , 实现 更 科学 的 分 
词 ; 最 后 , 基于 LDA 主题 模型 分 析 需 要 科学 设置 主题 
数 人 ， 虽 然 该 值 可 以 采用 混淆 度 标准 交叉 验证 获得 ， 
但 在 实际 分 析 中 计算 出 的 值 有 时 会 很 大 , 不 利于 文 
献 主 题 的 分 类 整理 。 未 来 研究 需要 找到 更 为 科学 的 主 
题 数目 确定 方法 , 或 者 对 K 值 较 大 的 主题 划分 结果 进 
一 步 处 理 来 凝聚 主题 。 
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A CA-LDA Model for Chinese Topic Analysis: Case Study of 
Transportation Law Literature 


Ma Hong! Cai Yongming? 
! (School of Transportation Law, Shandong Jiaotong University, Jinan 250357, China) 
? (Business School, University of Jinan, Jinan 250022, China) 


Abstract: [Objective] This paper aims to improve the effectiveness of extracting Chinese literature topics with the help 
of LDA model and co-word network analysis. [Methods] First, we added keywords to the word segmentation 
dictionary for the abstracts, which improved the semantic recognition of topic analysis. Second, we proposed a Latent 
Dirichlet Allocation Model with Co-word Analysis (CA-LDA) to control the topic distribution generated by the weight 
of co-word network topology parameters (i.e. Betweenness Centrality). Finally, we extracted the words with high 
connectivity (Betweenness Centrality) and frequency. [Results] The CA-LDA model retrieved high frequency and high 
connectivity words simultaneously, which were important for subject analysis. The proposed algorithm could also 
identify key node technical vocabularies with the help of co-word analysis. [Limitations] The K value (number of 
topics) was obtained by cross validation with perplexity. Thus, it was difficult to classify the document topics with 
larger K value. More research is needed to deal with this issue. [Conclusions] The proposed model effectively analyzes 
the topics of Chinese literature on transportation laws, which could also process literature data from other fields 
automatically. 

Keywords: Latent Dirichlet Allocation Model with Co-word Analysis Co-words | Network topology parameters 


Stochastic gradient descent Key word in transportation law literature 
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